tg-me.com/pyHints/740
Create:
Last Update:
Last Update:
این تصویر مربوط هست به بنچمارک Sonnet 3.7
SWE-bench verified
این بنچمارک مجموعهای از درخواست پروژههایی هست که روی سایتهای مختلف
freelance
توی سالهای قبل گذاشته شده (برخلاف خیلی بنچمارکهای دیگه Synthetic
نیست یعنی)مدل
sonnet
تونست 62.3%
درخواستهای که نیازمند software engineer
بوده رو تسکهاش رو کامل انجام بده و با کمی بهبود پرامپت این عدد به 70.3%
رسیده.حالا فرض کنید این ابزار دست شما باشه + خودتون هم سواد مهندسی رو داشته باشید.
بنظرتون این عدد به چند میرسه ؟
BY Python Hints

Share with your friend now:
tg-me.com/pyHints/740